
任务级奖励提升App Agent思考力,淘天提出Mobile-R1,3B模型可超32B
任务级奖励提升App Agent思考力,淘天提出Mobile-R1,3B模型可超32B现有Mobile/APP Agent的工作可以适应实时环境,并执行动作,但由于它们大部分都仅依赖于动作级奖励(SFT或RL)。
来自主题: AI技术研报
9743 点击 2025-07-21 12:25
现有Mobile/APP Agent的工作可以适应实时环境,并执行动作,但由于它们大部分都仅依赖于动作级奖励(SFT或RL)。
AI时代的第一个超级APP,很可能又是腾讯搞的